智能论文笔记

DSelect-k: Differentiable Selection in the Mixture of Experts with Applications to Multi-Task Learning

Hussein Hazimeh , Zhe Zhao , Aakanksha Chowdhery , Maheswaran Sathiamoorthy , Yihua Chen , Rahul Mazumder , Lichan Hong , Ed H. Chi

分类：机器学习 | (统计)机器学习

2021-06-07

专家混合（MOE）架构表明有希望导致改善多任务学习（MTL）的参数共享以及缩放高容量神经网络。最先进的MOE模型使用培训稀疏门来为每个输入示例选择专家的子集。概念上吸引人的同时，现有的稀疏栅极，如TOP-K并不顺利。缺乏平滑性可以在以梯度为基础的方法培训时导致收敛和统计性能问题。在本文中，我们基于新型二进制编码配方，开发DSelect-K：用于MOE的连续微分和稀疏的浇口。门可以使用诸如随机梯度下降的一阶方法进行培训，并提供对选择的专家数量的显式控制。我们展示了DSelect-K对合成和真实MTL数据集的有效性，最高可达128美元。我们的实验表明，DSelect-k可以在流行的Moe盖茨上实现统计上显着的预测和专家选择。值得注意的是，与Top-K相比，在现实世界的大规模推荐系统中，DSelect-K可实现预测性能超过22±22℃。我们提供DSelect-K的开源实现。

translated by 谷歌翻译

预计机器学习（ML）将在5G边缘计算中发挥重要作用。各种研究已经证明ML非常适合于优化边缘计算系统，因为快速移动性和应用引起的变化发生在边缘。对于ML提供最佳解决方案，重要的是要连续地训练ML模型以包括变化的情景。改变情景（例如，5G基站故障）引起的数据分布的突然变化被称为概念漂移，是持续学习的主要挑战。 ML模型可以在漂移发生的同时呈现高误差率，并且仅在模型学习分布后才会减少错误。在分布式设置中，此问题更加明显，其中多个MAX模型用于不同的异构数据集，最终模型需要捕获所有概念漂移。在本文中，我们表明，在联合学习中使用注意（FL）是处理概念漂移的有效方式。我们使用5G网络流量数据集来模拟概念漂移并测试各种场景。结果表明，注意力可以显着提高FL的概念漂移处理能力。

translated by 谷歌翻译